GitHub Copilot集団訴訟
2022-12-03
概要
これらのコードの多くはライセンス契約によって利用条件を定めている
例えば「作者名の表示」などが利用の条件となっている
Copilotが生成するコードは作者名の表示などの条件を満たしていない
これはライセンス違反であると原告側は主張
被告側の以前の主張
GitHubのCEO(当時、2021年11月に退任)のNat Friedman氏が、Copilotのデータ利用には「フェアユース」(公正利用の例外規定)の法理が適用されるという見解...
フィルター
Github側のフィルターがあるという主張
「GitHubで公開されているコードが生成された場合、検出してアラートを出すフィルター(オンオフ切り替え式)を用意している」と説明している。提案されたコードを使うかどうかは、ユーザーに委ねられる
これと食い違ういくかの報告がある
ゲーム「Quake III」の有名なソースコードが...Copilotから提案されたとするオープンソース開発者の話
テキサスA&M大学のTim Davis教授(コンピュータサイエンス・エンジニアリング)が「私が著作権を持つ大きなコードチャンク(塊)を、Copilotが帰属もLGPLもなしに出力している」とツイート
大前提としてまずはどちらの主張が間違ってるのか双方が証拠を出して事実認定しないとだね
僕の想像だと、おそらくフィルターは存在しているが「フィルターが『同じ』と判断する範囲」と「人間が『同じ』と判断する範囲」に食い違いがあるんだと思う
この話がピンとこない非エンジニアも読むと思うので具体例を出すと、例えばフィルターが「ソースコードの文字列が完全に一致したらアラートを出す」という実装の場合、ソースコード中の空白文字の数が異なっていたら警告しない。しかし人間は「空白文字の数は異なるかもしれないが明らかに同じものだろ!」と怒る
流石に当時でもここまで酷い実装ではなかっただろうなというのがnishio.iconの肌感
ただし、考えの浅いエンジニアが急いでやっつけ仕事をしたならそういうコードになってしまうこともないとは言えない
どちらかというか各種のパラメータを「大体これくらいで安全だろ」と設定したら、世の中に意外と大勢の「批判のネタを作り出すために問題のあるコードが出やすい行動を繰り返し実行する人」がいた、ということだろうと思っている
このフィルターの出来によって批判が燃え上がることがわかった後なので、間違いなく相応の技術力のエンジニアがレビューして、パラメータも厳しめに設定し直しているはず
なので被告側は「その現象は過去のバージョンにあった問題で、今はもう修正済みだから再発しない」と主張するだろうね
証拠として大量の生成結果とそれにもっとも類似してるソースコードのペアを出して「ほら複製権の侵害ではないでしょ」とやって「そうだね」ってなりそう
フェアユースに該当するか
米国著作権法で争われてるのでフェアユースかどうかの議論になっている どちらにせよ「著作権者の利益を不当に害するか」が論点
原告のButterick氏
「ライセンス表記なしでコードを利用させると、オープンソース運動そのものを殺してしまう」
わざとなのかわからないけど「利用」という言葉を曖昧に使ってるな
例えば具体的なライセンスとしてGPLv3を見ると利用の許諾とはlegal permission to copy, distribute and/or modify itだと書いてある
このソースコードを機械学習の対象とすることに関して、そもそもライセンスは何も言ってない
Copilotが学習データと同じものを出してしまうならcopyやmodifyに該当しうるわけだが、それは修正済みだろう
過去の例
2005年、図書館の蔵書をスキャン・電子化して登録する「Google Books」プロジェクトが著作権侵害にあたるとして作家団体Authors Guildと3人の著者がGoogleを訴えたクラスアクションがあった。 Google Books訴訟は10年かけて争われ、2015年10月、連邦控訴裁がフェアユースを認め、Google側勝訴の二審判決を下している。作家側は上訴したが、却下された。